ডেটা লোড করা (CSV, Excel, Database)

Machine Learning - সাইকিট-লার্ন (Scikit-Learn) - Data Preprocessing
186

ডেটা সায়েন্স এবং মেশিন লার্নিং প্রজেক্টে সঠিক ডেটা লোড করা একটি গুরুত্বপূর্ণ পদক্ষেপ। এটি বিভিন্ন ফরম্যাটে হতে পারে, যেমন CSV (Comma Separated Values), Excel (XLS, XLSX), অথবা ডেটাবেস থেকে ডেটা লোড করা। এখানে আমরা Python ব্যবহার করে এই ফরম্যাটগুলো থেকে ডেটা লোড করার উপায় সম্পর্কে আলোচনা করব।


১. CSV ফাইল থেকে ডেটা লোড করা

CSV (Comma Separated Values) ফাইল হলো সবচেয়ে সাধারণ ডেটা ফরম্যাট যেখানে তথ্য কমা দ্বারা পৃথক করা থাকে। pandas লাইব্রেরি ব্যবহার করে আমরা খুব সহজেই CSV ফাইল থেকে ডেটা লোড করতে পারি।

উদাহরণ:

import pandas as pd

# CSV ফাইল থেকে ডেটা লোড করা
df = pd.read_csv('data.csv')

# ডেটা দেখানো
print(df.head())  # প্রথম ৫টি সারি দেখাবে

ব্যাখ্যা:

  • pd.read_csv() ফাংশন ব্যবহার করে CSV ফাইলটি লোড করা হয়।
  • df.head() ফাংশন প্রথম ৫টি সারি প্রদর্শন করবে।

২. Excel ফাইল থেকে ডেটা লোড করা

Excel ফাইলগুলি সাধারণত .xls অথবা .xlsx এক্সটেনশনে থাকে। pandas লাইব্রেরি দিয়ে Excel ফাইল থেকে ডেটা লোড করা যায়, তবে এজন্য openpyxl বা xlrd লাইব্রেরি ইনস্টল করা থাকতে হবে (যদি তা না থাকে, pip install openpyxl কমান্ড দিয়ে এটি ইনস্টল করা যায়)।

উদাহরণ:

import pandas as pd

# Excel ফাইল থেকে ডেটা লোড করা
df = pd.read_excel('data.xlsx', sheet_name='Sheet1')  # sheet_name দ্বারা সুনির্দিষ্ট শীট নির্বাচন করা যায়

# ডেটা দেখানো
print(df.head())

ব্যাখ্যা:

  • pd.read_excel() ফাংশন ব্যবহার করে Excel ফাইল থেকে ডেটা লোড করা হয়।
  • sheet_name প্যারামিটার দিয়ে নির্দিষ্ট শীট থেকে ডেটা লোড করা যায়।

৩. ডেটাবেস থেকে ডেটা লোড করা

ডেটাবেস থেকে ডেটা লোড করার জন্য SQLAlchemy বা sqlite3 মতো লাইব্রেরি ব্যবহার করা যেতে পারে। এখানে sqlite3 দিয়ে একটি সহজ উদাহরণ দেখানো হলো।

উদাহরণ:

import sqlite3
import pandas as pd

# SQLite ডেটাবেস সংযোগ তৈরি করা
conn = sqlite3.connect('database.db')

# SQL কোয়েরি চালানো এবং ডেটা লোড করা
df = pd.read_sql_query('SELECT * FROM table_name', conn)

# ডেটা দেখানো
print(df.head())

# সংযোগ বন্ধ করা
conn.close()

ব্যাখ্যা:

  • sqlite3.connect() ফাংশন ডেটাবেসে সংযোগ তৈরি করে।
  • pd.read_sql_query() ফাংশন SQL কোয়েরি চালিয়ে ডেটাবেস থেকে ডেটা লোড করে।
  • conn.close() দিয়ে ডেটাবেস সংযোগ বন্ধ করা হয়।

সারাংশ

  • CSV ফাইল থেকে ডেটা লোড: pandas.read_csv() ফাংশন ব্যবহার করে।
  • Excel ফাইল থেকে ডেটা লোড: pandas.read_excel() ফাংশন ব্যবহার করে, যেখানে openpyxl বা xlrd প্রয়োজন।
  • ডেটাবেস থেকে ডেটা লোড: sqlite3 বা SQLAlchemy ব্যবহার করে, এবং SQL কোয়েরি চালিয়ে ডেটা লোড করা যায়।

এই উপায়গুলো ব্যবহার করে আপনি বিভিন্ন সোর্স থেকে ডেটা খুব সহজেই লোড করতে পারেন।

Content added By
Promotion
NEW SATT AI এখন আপনাকে সাহায্য করতে পারে।

Are you sure to start over?

Loading...